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Proc€de de representation d'une sequence d'images par modeles 3D, 
signal et dispositifs correspondants. 

Le domaine de 1'invention est celui du codage de sequences d'images. Plus 
pr6cis6ment, T invention concerne une technique de codage de sequences 
5 d'images par flux de modules tridimensionnels, ou 3D. 

On rappelle que le codage vidgo par modeles 3D consiste k repr£senter une 
sequence video par un ou plusieurs modules 3D textures. Les informations k 
transmettre k un codeur de la sequence d'images sont les modules 3D, les images 
de textures qui leur sont assoctees, et les parametres de la camera ayant film6 la 
10 sequence. 

Ce type de codage permet done d'atteindre des debits plus faibles que les 
techniques de codage classiques, selon lesquelles on repr^sente gSndralement les 
vid6os par un ensemble de pixels, qui est bien plus coftteux k transmettre. 

En outre, une telle technique de codage par modeles 3D permet, par 

15 rapport aux techniques de codage classiques, d'ajouter certaines fonctionnalit6s k 
la sequence reconstruite. H est ainsi possible de changer Tillumination de la sc&ne, 
de realiser un affichage sterSoscopique, de stabiliser la sequence (lorsqu'il s'agit 
d'une sequence vid6o), d'ajouter des objets dans la scfene ou enfin de changer le 
point de vue, de fagon k simuler une navigation libre dans la scene (la navigation 

20 libre peut en effet etre d6finie comme un changement de trajectoire de la cam6ra 
par rapport au chemin original). 

II existe de ce fait, sur le march6 du codage d'images, une demande 
importante de methodes ^extraction de modeles 3D k partir de videos. En effet, 
en partant de scenes 3D r^elles, on obtient par mod61isation 3D un contenu 

25 beaucoup plus photor6alistique que selon les methodes de synthese envisages par 
le pass6. En outre, gr&ce aux fonctionnalitSs cities ci-dessus, l'obtention de 
modules virtuels des scenes rgelles permet d f envisager un grand nombre 
^applications telles que Te-commerce, les jeux vid6o, la simulation, les effets 
speciaux ou encore le repSrage geographique. 
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On connait k ce jour plusieurs techniques permettant la construction de 
modeles 3D k partir d'une vid6o. 

Certaines techniques, dites actives, n6cessitent de controler l'6clairage 
d'une scfene r6elle, et mettent g€n6ralement en oeuvre une technologie laser, ou un 
5 grand nombre de cameras, afin d'acqu6rir plusieurs angles de vues et de 
nombreuses informations de profondeur. 

D'autres techniques, dites passives, reposent quant k elles sur des 
algorithmes de calcul sophistiqu6s, et sont basees, soit sur les relations entre les 
images, soit sur les silhouettes. Elles different principalement les unes des autres 
10 par le niveau de calibration necessaire et le degre d' interactivity autoris6. Elles 
consistent k reconstruire une information 3D a partir d'un ensemble de 
photographies ou d'images, et se heurtent principalement aux deux probl&mes 
suivants : 

la mise en correspondance, qui consiste k trouver, pour une zone 
15 d'une image donnee, une zone correspondante dans les autres images 

(cette zone peut etre r6duite k un point de Fimage) ; 
la calibration de la camera, qui consiste k estimer les paramfetres de 
formation de F image (k savoir, les paramfetres intrinseques de la 
camera (distance focale, etc.) et ses parametres extrinseques (positions 
20 de la camera pour l'acquisition des diff6rentes images de la sequence, 

etc.)). 

La mise en correspondance est g6neralement gdr6e manuellement, comme 
decrit par V. M. Bove et al. dans "Semiautomatic 3D-model extraction from 
uncalibrated 2-D camera views," (en frangais, "extraction semi-automatique de 
25 modules 3D k partir de vues bidimensionnelles non-calibr6es de camera") 
Proceedings Visual Data Exploration and Analysis, 1995. 

La calibration est quant k elie un processus fastidieux, et les algorithmes 
de calcul qui lui sont associ6s sont sou vent instables. De nombreuses m6thodes 
reposent done sur des sequences calibrees qui demandent, soit une intervention 
30 humaine (E. Boyer et al., "Calibrage et Reconstruction k l'aide de Parallgldpipedes 



WO 2004/114669 



3 



PCT/FR2004/001542 



et de Parall61ogrammes," Actes du treizi&me congr&s francophone des 
reconnaissances de Formes et Intelligence Artificielle, 2002), soit un syst&me 
d' acquisition compliqu6, reposant sur une « turntable » (en fran£ais, « table 
tournante ») (W. Niem, "Robust and Fast Modeling of 3D Natural Objects from 

5 Multiple Views,", en frangais "modSlisation rapide et robuste d'objets naturels 3D 
h. partir de vues multiples", vcipl994, 1994) ou sur Tutilisation d'un robot mobile 
(J. Wingbermuhle, "Automatic Reconstruction of 3D Object Using a Mobile 
Monoscopic Camera," en fran?ais "Reconstruction automatique d'objets 3D 
utilisant une camera mobile monoscopique", Proceedings of the International 

10 Conference on Recent Advances in 3D Imaging and Modelling, Ottawa, Canada, 
1997 ). 

Selon certaines autres methodes automatiques, ou semi-automatiques, la 
mise en correspondance n'est pas g6r6e manuellement. On se r6f£rera par exemple 
aux techniques de A. Fitzgibbon et aL, ("Automatic Line Matching and 3D 
15 Reconstruction of Buildings from Multiple Views," (en frangais, "Mise en 
correspondance automatique de lignes, et reconstruction 3D d'immeubles h partir 
de vues multiples") IAPRS, Munich, Allemagne, 1999) ou de C. Zeller et aL, ("3- 
D Reconstruction of Urban Scene from Sequence of Images," (en frangais, 
"Reconstruction 3D de scenes urbaines k partir de sequences d'images) INRIA, 
20 Information Technology 2572, 1995). 

Cependant, ces methodes semi-automatiques, ou automatiques, n6cessitent 
de faire de nombreuses hypotheses sur les scenes & reconstruire, et ne s'appliquent 
par exemple qu'aux scfenes architecturales. 

Ces methodes de reconstruction 3D automatiques mettent classiquement 
25 en oeuvre les etapes suivantes : 

- detection de points ou de lignes particuliers ; 

- mise en correspondance entre les images : cette 6tape consiste & suivre 
le long de la sequence video les points ou lignes particuliers extraits 
lors de 1'etape pr6c6dente ; 

30 - mise en relation des diffSrentes images ; 
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- reconstruction projective des points 3D ; 

autocalibration, ou raffinement de la calibration, si n6cessaire, pour 
passer & un module 3D mStrique (en effet, les manipulations 
interactives du module se font dans l'espace euclidien) ; 
5 - estimation du module 3D textur6. 

Certaines approches, bas6es sur l'algorithme ci-dessus, permettent de 
reconstruire un module 3D h partir de donn^es fournies par une camera 
monoculaire en mouvement (c'est h dire qu'on n'a aucune connaissance a priori, ni 
sur les parametres intrins&ques ou extrinseques de la camera, ni sur la sc&ne k 
10 reconstruire). On peut se r6f6rer par exemple aux techniques de P. Debevec et al., 
"Panel Session on Visual Scene Representation," Smile2000, 2000, ou de G. 
Cross et al., "VHS to VRML: 3D Graphical Models from Video Sequences," en 
fran?ais "de la VHS au VRML : modeles graphiques 3D h partir de sequences 
vid6o", IEEE International Conference on Multimedia Computing and System, 
15 Florence, 1999. 

J. Roning et al. dans "Modeling Structured Environments by a Single 
Moving Camera," (en fran$ais "Modelisation d'environnements structur6s par une 
simple cam6ra mobile") Second International Conference on 3-D Imaging and 
Modelling, 1999 ont propos6 une m&hode qui estime un premier module & partir 
20 de contours d6tectes et de filtres 6tendus de Kalman. Cependant, cette m&hode 
pr6sente Finconv6nient de reposer beaucoup sur les contours, et done d'Stre mal 
adapt6e aux scenes compliqu6es. 

Dans "VHS to VRML: 3D Graphical Models from Video Sequences," 
IEEE International Conference on Multimedia Computing and System, Florence, 
25 1999, G. Cross et al. ont present^ une m6thode consistent k detecter des points par 
la m6thode de Harris, et & les mettre en correspondance entre les differentes vues, 
simultan6ment h l'estimation de la g6om6trie. La mise en correspondance se fait 
par correlation en croix, couplee & la geom6trie 6pipolaire pour deux vues, ou k la 
g6om6trie trifocale pour trois vues, qui permettent de guider les appariements. Les 
30 correspondances sont ensuite 6tendues k la sequence et optimises par un 
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ajustement par faisceaux. On obtient done des matrices de projection 3*4 et une 
structure 3D euclidienne (par autocalibration), sur laquelle on plaque la texture 
des images originales. Ceci permet de masquer les imperfections de la geom6trie. 
Cependant, un inconvenient de cette methode est que le mouvement entre 
5 deux images successives doit Stre relativement petit et que la sequence d'images 
doit etre de taille raisonnable. Cette methode n'est done pas adapt6e k une 
sequence damages quelconque. 

Deux approches ont egalement 6t6 proposes par I'universite de Louvain. 
Selon la premiere approche (M. Pollefeys, "Tutorial on 3D Modeling from 
10 Images," eccv2000, 2000), les points ou lignes particuliers des images detects 
sont extraits et mis en correspondance k l'aide de Talgorithme de Torr (d6crit dans 
1'ouvrage cite ci-dessus). En parallele, une calibration restreinte est 6valu6e, afin 
de pouvoir eliminer les correspondances incompatibles avec la calibration. La 
methode de Beardsley (M. Pollefeys, "Tutorial on 3D Modeling from Images," 
15 eccv2000, 26 juin 2000, Dublin, Irlande) permet d f obtenir une ebauche de 
reconstruction projective pour les deux premieres images, et les matrices de 
projection des autres vues. Une autocalibration, en fixant certaines inconnues k 
leurs valeurs par defaut et en appliquant le concept de la conique absolue, permet 
de retrouver les paramfetres internes de la camera, afin de passer k une 
20 representation metrique. Les donnas sont ensuite fusionnees en un modele 3D 
commun, k Taide d'une methode qui concafene les points qui se correspondent sur 
plusieurs images, pour former deux chataes (une chaine descendante et une chaine 
montante), k partir des cartes de disparity et des rotations calculdes lors de la 
calibration. Pour les grands objets, une approche multi resolution est proposee. 
25 Cependant, un inconvenient de cette technique est que Tapproche multi 

resolution proposee pour les grands objets necessite de disposer de plusieurs 
videos de la meme scfene, afin d'avoir accfes non seulement k une vue d f ensemble 
mais egalement aux details. En outre, cette methode est de type semi-automatique. 
Selon une seconde technique (Gool et al., "From image sequences to 3D 
30 models," en fran9ais "des sequences d'images aux modeles 3D", Third 
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International Workshop on Automatic Extraction of Man-made Objects from 
Aerial and Space Images, 2001), les points ou lignes particuliers des images sont 
d&ectes par la m6thode de Harris ou par la m6thode de Shi et Tomasi (dScrite par 
M. Pollefeys, dans "Tutorial on 3D Modeling from Images," eccv2000, 26 juin 
5 2000, Dublin, Irlande). Ces caract6ristiques sont ensuite mises en correspondance, 
ou suivies entre les diffSrentes vues, suivant qu'il s'agit d'images ou de vid6o. A 
partir de ces correspondances, les relations entre les vues sont calcutees par une 
m6thode robuste comme celle de Torr ou de Fisher et Bolles. Pour la 
reconstruction projective, deux images sont s61ectionn6es, afin d'obtenir une 
10 reconstruction initiale, en determinant les matrices de projection pour des 
param&tres intrinseques et une matrice de rotation approch6e, et en triangulant. La 
position des cameras correspondant aux autres vues est ensuite d6termin6e k Taide 
de la g6om6trie 6pipolaire. La structure est ensuite raffin6e en utilisant un filtre de 
Kalman (d6crit par M. Pollefeys, dans "Tutorial on 3D Modeling from Images," 
15 eccv2000, 26 juin 2000, Dublin, Irlande) 6tendu pour chaque point. Lorsque la 
structure et le mouvement ont ete obtenus pour toute la sequence, un ajustement 
de faisceaux est r6alis6. On passe de la reconstruction projective & la 
reconstruction euclidienne grace h. l'autocalibration. Le module 3D virtuel est 
ensuite obtenu en elevant le maillage triangulaire sur Tune des images de la 
20 sequence, en eliminant les points pour lesquels la profondeur n'est pas disponible. 

Un inconvenient de cette m&hode est qu'elle ne donne de bons r6sultats 
que sur les scenes simples, et n'est pas adaptee aux scenes complexes. 

Plus gSneralement, toutes les techniques de Tart ant6rieur dScrites ci- 
dessus presentent comme inconv6nient de nScessiter de faire des hypotheses 
25 simplificatrices sur V acquisition de la sequence d'images (en termes par exemple 
de paramfetres de la camera), et/ou sur le contenu de la sc&ne, ou encore sur la 
longueur de la sequence. En d' autres termes, ces diff6rentes mdthodes ne sont pas 
adapt^es & une sc&ne et une s6quence d'images quelconques, 6ventuellement 
complexes. 
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Une derntere m€thode, orient^e codage, a 6t6 proposee par Franck Galpin 
dans "Representation 3D de sequences vid6o: Schema d'extraction automatique 
d ! un flux de modules 3D, applications k la compression et k la r6alite virtuelle," 
University de Rennes 1, 2002. Contrairement aux autres m^thodes de Tart 
5 ant£rieur, selon lesquelles on cherche k reconstruixe un module 3D unique pour 
l'ensemble de la sequence d'images, Tid^e principale de la mSthode de Franck 
Galpin est de traiter la sequence vid£o par morceaux, afin d'obtenir plusieurs 
modeles, qui seront chacun valides pour une section de la sequence, appel6e GOP 
(« Group Of Pictures », en franeais « groupe d'images »). 
10 On suppose que la scene est statique (ou segment6e au sens du 

mouvement), film£e par une camera monoculaire en mouvement, que les 
param&tres d'acquisition (paramfetres intrinsfeques et extrins&ques de la camera) 
sont inconnus, que la focale de la camera est constante et que la scfene contient 
peu ou pas de surfaces sp6culaires. Le contenu de la scfene et les mouvements de 
15 la camera sont supposes quelconques. 

On realise une estimation du mouvement dense, basee sur liquation du 
flot optique ou sur un maillage 2D d6formable, afin de permettre une estimation 
entre des images eloign6es de la sequence (k savoir les images clefs qui delimitent 
les GOPs). Ces images clefs sont s61ectionnees parallelement et servent de support 
20 k l'estimation du mod&le 3D. Le calcul robuste des param&tres intrinseques et 
extrinsfeques des cam6ras est egalement realise sur les images clefs, et affine 
simultan£ment avec la g£om&rie 3D, par une m£thode d'ajustement de faisceaux 
par fenetre glissante. Les positions des images interm6diaires sont estim£es par 
localisation par Dementhon (voir notamment « Representation de sequence 
25 vid£o : schema d'extraction automatique d'un flux de modeles 3D, applications k 
la compression et k la r6alit£ virtuelle », University de Rennes 1, janvier 2002, par 
Franck Galpin) afin de pouvoir reconstruire la sequence originale, comme illustr£ 
sur la figure 1. 

La s6quence initiale comprend une plurality d'images I k successives, 
30 regroup6es en groupes d'images appel6es GOPs. Ainsi, les images I 0 k I 5 sont 
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regroupees au sein d'un premier GOP reference 1, auquel est associe un module 
3D Mq. Les images I5 k I l3 sont rassembtees au sein d'un deuxifeme GOP r6f6renc6 
2, auquel est associS un deuxfeme modfele 

Cette dernifere methode de Tart ant6rieur permet d'obtenir, en termes de 
5 codage, des r6sultats trfes superieurs aux autres m6thodes d6crites prdc6demment 
dans ce document. Les figures 2a k 2e illustrent les r6sultats obtenus, en bas d6bit, 
selon cette technique d'une part, et selon la technique H26L d' autre part. Plus 
precis6ment, la figure 2a pr6sente Involution du PSNR, les figures 2b et 2c 
pr6sentent respectivement une image et une zone de detail de cette image 
10 obtenues selon la technique H26L (ou H264, voir notamment « Sliding adjustment 
for 3D video representation », Franck Galpin et Luce Morin, eurasip 2002, pages 
1088 k 2001) pour un debit de 82kb/s, et les figures 2d et 2e prSsentent les memes 
images obtenues selon la m6thode de flux de modules 3D de Franck Galpin. 

Sur la figure 2a, la premiere courbe (la plus haute sur la figure) est la 
15 quality objective de la sequence reconstruite, obtenue par reprojection des 
modules 3D suivant la m6thode de Franck Galpin dans Fespace texture, i.e. sans 
prendre en compte les distorsions g6om6triques. Les deux autres courbes de la 
figure 2a indiquent la quality objective pour les sequences reconstruites obtenues 
par la m6thode de Franck Galpin et par le codeur H264 dans Tespace image. 
20 Bien qu'en mesure objective (c'est-&-dire en termes de PSNR « Peak 

Signal to Noise Ratio », « rapport signal k bruit crete ») les performances 
obtenues soient similaires pour le codeur de Franck Galpin et le codeur H26L, on 
notera que, d'un point de vue visuel, la quality obtenue est sup6rieure avec le 
codeur bas6 sur un flux de modules 3D, notamment en termes de respect des 
25 d6tails, d'absence d'effets blocs, etc. 

En outre, cette technique de codage bas6e sur un flux de modeles 3D 
permet d'atteindre de trfcs bas d6bits pour une quality visuelle satisfaisante, ainsi 
qu'illustrS par les figures 3a k 3c, qui pr6sentent respectivement : 
Involution du PSNR ; 
30 - une image obtenue selon cette technique ; 
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une zone de detail de cette image, 
pour un d6bit de 16kb/s. 

Bien que la m6thode de Franck Galpin, reposant sur l'extraction d'un flux 
de modfeles 3D, ne presente pas certains inconv6nients inhdrents aux mSthodes 
5 d'extraction d'un module 3D unique d6crites pr6c6demment, elle se heurte 
cependant & certains probl&mes. 

Notamment, un inconvenient de cette technique de 1'art antSrieur est que 
l'ensemble des modeles 3D obtenus pour une sequence d'images ne sont que 
partiellement redondants, ce qui rend cette technique inadapt6e aux applications 
10 de navigation libre dans une sc&ne. 

En effet, les differents modules 3D obtenus sont exprimes dans des jrep&res 
differents, et pr6sentent de nombreuses imperfections (en termes notamment de 
derive, de points aberrants, etc.). 

Un autre inconvenient de cette technique de Tart anterieur est que, bien 
15 qu'elle soit orient6e vers le codage (contrairement aux autres approches d6crites 
prec6demment), elle n'est echelonnable (en anglais « scalable ») que du point de 
vue de la texture des images, et non de la geometric 

Cette m^thode n'est done pas, ou mal adaptee k une mise en ceuvre sur des 
terminaux de visualisation de capacites de traitement trbs diverses, ou sur des 
20 r6seaux de transmission de ddbit variable. 

L'invention a notamment pour objectif de pallier ces inconvenients de l'art 
ant6rieur. 

Plus pr£cis6ment, un objectif de l'invention est de fournir une technique de 
representation d'une sequence d'images par modfele 3D qui soit adaptee k tout 
25 type de sequence d'images fixes ou statiques, ou de scfcne, y compris complexe. 
Notamment, l'invention a pour objectif de mettre en ceuvre une telle technique qui 
permette la reconstruction d'une scfcne, sur laquelle on ne formule aucune 
hypothese, qui est acquise avec un appareil grand public, dont on ne connait ni les 
caract6ristiques, ni le deplacement. 
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Un autre objectif de l'invention est de mettre en oeuvre une telle technique 
qui permette d'obtenir une sequence reproduite par reprojection de bonne qualite 
visuelle, m§me lorsqu'on s'eioigne de la trajectoire originate de la camera ayant 
servi k V acquisition de la sequence. 
5 L'invention a encore pour objectif de fournir une telle technique qui soit 

adaptee aux bas et trfes bas debits. 

L'invention a egalement pour objectif de mettre en oeuvre une telle 
technique qui soit particulierement bien adaptee aux scenes de grandes 
dimensions. 

10 L'invention a encore pour objectif de fournir une telle technique qui. 

convienne aux applications de codage et de navigation virtuelle. 

L'invention a aussi pour objectif de mettre en oeuvre une telle technique 
qui permette d'obtenir des representations dchelonnables (en anglais « scalable ») 
des s6quences d'images, de fa9on k permettre une transmission sur des r6seaux de 
15 debits divers, en vue notamment d' applications portables. 

Encore un objectif de l'invention est de fournir une telle technique, qui 
permette, k meme debit, la representation de scenes de meilleure qualite visuelle 
que selon la technique de Franck Galpin decrite ci-dessus. 

L'invention a aussi pour objectif de mettre en oeuvre une telle technique 
20 qui permette, pour la representation d'une sequence d'images de m£me qualite 
visuelle, une reduction du debit par rapport k la technique de Franck Galpin 
decrite ci-dessus. 

Ces objectifs, ainsi que d'autres qui apparaitront par la suite, sont atteints k 
l'aide d'un proc6de de representation d'une sequence d'images regroupees en 
25 ensembles d'au moins deux images successives, appeies GOPs, un modMe 
tridimensionnel mailie texture etant associe k chacun desdits GOPs. 

Selon l'invention, le module tridimensionnel associe au GOP de niveau n 
est represente k l'aide d'un maillage irregulier tenant compte d'au moins un 
sommet d'au moins le maillage irregulier repr6sentant le module tridimensionnel 
30 associe au GOP de niveau n-1, ledit sommet 6tant appeie sommet commun. 
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Ainsi, Finvention repose sur une approche tout k fait nouvelle et inventive 
de la representation d'une sequence d'images par modules 3D. En effet, comme 
pour la m6thode propos6e par Franck Galpin, Finvention propose une approche 
reposant, non pas sur V extraction d'un module 3D unique pour F ensemble des 
5 images de la sequence, mais sur Fextraction d'un flux de modules 3D, associ6s 
chacun k un groupe d'images, appel6 GOP. 

En outre, Finvention propose une amelioration inventive de la technique 
de Franck Galpin, en 6tablissant une correspondance entre les diff£rents modules 
3D associes a chacun des GOPs, de fagon, notamment, k accroitre leur 
10 redondance. L'invention permet done avantageusement des applications de type 
navigation interactive. 

Une telle correspondance entre modeles 3D successifs est rendue possible 
en utilisant un maillage irr£gulier des images, qui s'adapte particulierement bien 
aux singularites des images. Le maillage irregulier d'un modfele 3D prend ainsi en 
15 compte au moins un sommet singulier (et plus g6n6ralement les points ou lignes 
particuliers de Fimage) du maillage irr6gulier du sommet 3D precedent. 

L'invention permet done, k qualite visuelle 6gale, de r6duire le debit de 
transmission de la sequence d'images, du fait de la redondance entre les differents 
modules 3D. Elle permet egalement, pour un meme d6bit, d'obtenir une meilleure 
20 quality visuelle de la representation de la sequence d'images, grSce au suivi des 
singularites de Fimage entre modules 3D successifs. 

Selon une caractSristique avantageuse de Finvention, on associe 6galement 
k au moins deux modules tridimensionnels cons6cutifs un modMe de base 
construit k partir desdits sommets communs auxdits au moins deux modules 
25 tridimensionnels. 

Selon la nature de la sequence d'images, il est possible qu'& tous les 
modules 3D associ6s k la sequence corresponde un mSme maillage de base. Ce 
maillage de base, ou maillage grossier dont les diff6rents modules 3D constituent 
des raffinements, correspond k la structure g6om£trique commune k tous les 
30 modeles 3D qui lui sont associes. 
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Pr6f6rentiellement, on passe (Tun desdits modules tridimensionnels k un 
autre par transformation en ondelettes, k l'aide d'un premier ensemble de 
coefficients d* ondelettes. 

Avantageusement, un desdits modules tridimensionnels est obtenu h partir 
5 dudit module de base associ6 par transformation en ondelettes, h l'aide d'un 
deuxi&me ensemble de coefficients d' ondelettes. 

L'invention permet done une transmission scalable de la sequence 
d'images, adaptable en fonction des caract&ristiques du reseau ou du terminal de 
visualisation. Les 616ments h transmettre pour une reconstruction de la sequence 
10 sont, outre les param&tres de la camera, le maillage de base d'une part, et les 
coefficients d'ondelettes permettant de reconstruire les diff6rents modules 3d 
d' autre part. En transmettant un nombre plus ou moins grand de coefficients 
d'ondelettes, on obtient une qualite de reconstruction plus ou moins 61ev6e, 
adapt6e au d6bit du r6seau de transmission ou h la capacity du terminal de 
15 visualisation. 

De manure pr6ferentielle, ledit maillage irr6gulier de niveau n est un 
maillage irregulier bidimensionnel de Tune des images dudit GOP de niveau n. 

De maniere avantageuse, ladite image maillee est la premiere image dudit 
GOP de niveau n. 

20 Pr6f6rentiellement, chacun desdits modeles tridimensionnels est obtenu par 

616vation dudit maillage irregulier le repr6sentant. 

On combine ainsi des informations de profondeur au maillage 2D, pour 
obtenir par 616vation une carte de profondeur maillee, 

Selon une premiere variante avantageuse de l'invention, ledit maillage 
25 bidimensionnel irregulier est obtenu par simplifications successives d'un maillage 
triangulaire r^gulier de ladite image. 

Par exemple, on part de triangles de cdt6 1, pour couvrir tous les points de 
Timage. 
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Selon une deuxfeme variante avantageuse de 1' invention, ledit maillage 
bidimensionnel irr6gulier est obtenu h partir d'un maillage de Delaunay de points 
d'int6ret pr€d6termin6s de ladite image. 

Ces points d'int6rSt sont detects au pr6alable, par exemple par 
5 T algorithme de Harris et Stephen. 

Prefdrentiellement, deux GOPs successifs ont au moins une image 
commune. 

Ainsi, la dernifere image d'un GOP est aussi la premiere image du GOP 
suivant. 

10 Selon une caract6ristique avantageuse de l'invention, lesdits sommets 

communs auxdits niveaux n-1 et n sont detectes par estimation de mouvement 
entre la premifere image dudit GOP de niveau n-1 et la premi&re image dudit GOP 
de niveau n. 

Avantageusement, un tel procedg comprend une etape de stockage desdits 
15 sommets communs d6tect6s. 

Ces sommets communs stock^s peuvent ensuite etre utilises pour la 
construction du modele associ£ au GOP suivant. 

De manifcre pr6ferentielle, ledit maillage irr^gulier representant ledit 
module associe au GOP de niveau n tient egalement compte d'au moins un 
20 sommet d'au moins le maillage irr^gulier representant le module associe au GOP 
de niveau n+1. 

En proc6dant ainsi de maniere bidirectionnelle, on accroit encore la quality 
visuelle lors de la reconstruction. 

Avantageusement, ledit deuxi&me ensemble de coefficients d'ondelettes 
25 est g6n6r6 par application d'au moins un filtre d' analyse sur un remaillage semi- 
r6gulier dudit module tridimensionnel associ6. 

On rappelle qu'un maillage semi-r6gulier est un maillage dont les sommets 
qui n'ont pas six voisins sont isotes sur le maillage (c'est-^-dire qu'ils ne sont pas 
voisins entre eux). 
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PrSfdrentiellement, lesdites ondelettes sont des ondelettes de deuxteme 
generation. 

De mani&re pr6f6rentielle, lesdites ondelettes appartiennent au groupe 
comprenant : 

5 - les ondelettes affines par morceaux ; 

les ondelettes polynomials ; 

les ondelettes basees sur le schema de subdivision de Butterfly. 
L'invention concerne aussi un signal repr^sentatif d'une sequence 
d'images regroup6es en ensembles d'au moins deux images successives, appel6s 
10 GOPs, un module tridimensionnel mailie texture etant associe k chacun desdits 
GOPs. 

Selon Tinvention, un tel signal comprend : 

au moins un champ contenant un modele de base construit & partir de 
sommets communs k au moins deux maillages irreguliers, repr6sentant chacun un 
15 modele tridimensionnel, lesdits au moins deux modules tridimensionnels etant 
associes h. au moins deux GOPs successifs ; 

au moins un champ contenant un ensemble de coefficients 
d' ondelettes permettant de construire, par transformation en ondelettes h partir 
dudit modele de base, au moins un modfele tridimensionnel associe a Tun desdits 
20 GOPs ; 

au moins un champ contenant au moins une texture associ6e h l'un 
desdits modules tridimensionnels ; 

au moins un champ contenant au moins un parametre de position de 

camera. 

25 L'invention concerne encore un dispositif de representation d'une 

sequence d'images mettant en ceuvre le proc6d6 de representation decrit 
pr6c6demment. 

L'invention concerne notamment un dispositif de representation d'une 
sequence d'images regroupees en ensembles d'au moins deux images successives, 
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appetes GOPs, un module tridimensionnel maill6 textur6 6tant associ6 k chacun 
desdits GOPs. 

Selon T invention, un tel dispositif comprend : 

des moyens de construction desdits modeles tridimensionals, par 
5 transformation en ondelettes d'au moins un modele de base, 61abore k 

partir de sommets communs k au moins deux maillages irr6guliers 
representant deux modules tridimensionnels successifs ; 
des moyens de representation desdites images de la sequence k partir 
desdits modules tridimensionnels, d'au moins une image de texture et d'au 
10 moins un param&tre de position de camera. 

L'invention concerne aussi un dispositif de codage d'une sequence 
d'images regroupees en ensembles d'au moins deux images successives, appeles 
GOPs, un modele tridimensionnel maill6 textur6 6tant associ6 k chacun desdits 
GOPs. 

15 Selon l'invention, un tel dispositif de codage comprend des moyens de 

codage d'un modele tridimensionnel assocte au GOP de niveau n, ledit modele 
tridimensionnel etant repr6sent6 k l'aide d'un maillage irr6gulier tenant compte 
d'au moins un sommet d'au moins le maillage irregulier repr6sentant le mod&le 
tridimensionnel associ6 au GOP de niveau n-1. 

20 D'autres caract6ristiques et avantages de l'invention apparaitront plus 

clairement a la lecture de la description suivante d'un mode de realisation 
pr£f6rentiel, donn6 k titre de simple exemple illustratif et non limitatif, et des 
dessins annexes, parmi lesquels : 

la figure 1, d6jk commence en relation avec l'art ant&rieur, presente le 

25 principe de la reconstruction d'une sequence vid6o par un flux de modules 

3D; 

les figures 2a k 2e, d6jk comment6es en relation avec l'art anterieur, 
illustrent un comparatif des r6sultats visuels obtenus selon une technique 
de type H26L d'une part, et selon la technique de codage de la figure 1 
30 d' autre part; 
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les figures 3a & 3c, d6jh commences en relation avec Tart ant6rieur, 
pr6sentent les resultats obtenus selon la technique de la figure 1 pour un 
debit faible de 16kb/s ; 

la figure 4 illustre le principe g6n6ral de la reconstruction d'une sequence 
5 vid6o k partir d'un modele 3D ; 

la figure 5 illustre le principe g6n6ral de la presente invention, reposant sur 
l'extraction d'un flux de modules 3D, associ6s chacun k un module de 
base, commun h. un ou plusieurs modules 3D ; 

la figure 6 presente les differents coefficients d'ondelettes utilises pour le 
10 codage des modeles 3D de la figure 4 ; 

la figure 7 presente un synoptique des differentes Stapes mises en oeuvre 

selon T invention pour le codage des images de la sequence. 

Le principe general de l'invention repose sur l'extraction d'un flux de 
modules 3D auxquels on associe des maillages irreguliers, adapt6s au contenu des 
15 images de la sequence, et qui prennent en compte les correspondants des sommets 
du maillage irregulier du modfele 3D pr6c6dent. 

On rappelle brifevement, en relation avec la figure 4, le principe general de 
la reconstruction d'une s6quence vid6o par 1* intermediate d'un module 
tridimensionnel. 

20 On consid&re une scfcne reelle, en l'occurrence un objet 41 (ici, une 

th6iere), que Ton filme (42) au moyen d'une camera 43. On ne fait aucune 
hypothese, ni sur la nature de cette camera, qui peut etre un appareil grand public, 
ni sur les paramfetres d' acquisition de la vid6o. 

Apr£s num6risation 44 de la vid6o, on obtient une sequence d'images 45, 
25 que Ton appelle sequence originale. 

Par analyse 46 de cette sequence originale, on construit au moins un 
modele 3D 47 (une plurality de modeles 3D selon l'invention), & partir duquel on 
peut reconstruire (48) une sequence d'images 49, en vue de son affichage sur un 
terminal de visualisation. 
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On pr6sente d6sormais, en relation avec la figure 5, le principe general de 
Tinvention, qui est base, d'une part, sur un flux de modules 3D mailtes textures, et 
d' autre part, sur la mise en ceuvre de transformations en ondelettes. 

Chaque mod&le 3D correspond k une partie de la sequence d'images 
5 d'origine, c'est-&-dire k un GOP (en anglais « Group of Pictures »). Les modules 
3D consid6res sont des cartes d ! 616vations mailtees irr6gulidrement, sous la 
contrainte de la prise en compte des correspondants des sommets du modele 
pr6c6dent. Cette contrainte permet de garantir des correspondances pr6cises entre 
les sommets des modeles successifs. 
10 Les transformations permettant de passer d'un module k un autre sont 

d6compos6es en ondelettes, ce qui permet d'adapter la precision de la 
transformation au d6bit, grace k la scalability naturelle des ondelettes. 

L' invention repose en outre sur la reconstruction de modules de base, que 
Ton associe k un ou plusieurs GOPs successifs, ainsi qu'illustr6 par la figure 4. 
15 La sequence d'images originate est constitutes d'images I k successives. On 

a plus particulierement repr6sent6 sur la figure 4 les images Iq, I 3 , 1 5 , I l0 , 1 2 o> ho> ho> 
I50 et W Cette sequence peut etre de longueur quelconque, aucune hypothfese 
restrictive n'6tant n6cessaire selon la pr6sente invention. 

La sequence d'images I k est divisee en groupes d'images successifs, 
20 appel6s GOPs. Ainsi, le premier GOP 50 comprend les images r6f6renc£es I 0 k I 5 , 
le deuxi&me GOP 51 comprend les images I 5 k I^, un (k+l) idme GOP 52 comprend 
notamment les images I 30 k I 40 et un (k+2) ifeme GOP 53 comprend les images I40 a 
Igo. On notera que, dans le mode de realisation pr6f6rentiel de la figure 4, la 
derni£re image d'un GOP est 6galement la premiere image du GOP suivant : ainsi, 
25 l'image I 5 par exemple appartient au premier GOP 50 et au deuxifeme GOP 5 1 . 

On construit, pour chacun de ces GOPs 50 k 53, un module 3D M k . Le 
modfele 3D M 0 est assocte au GOP 50, le module 3D M t est associe au GOP 51, 
etc. 

On construit egalement un ensemble de modeles de base, notes MB k , dont 
30 les modules 3D M k constituent des raffinements. Ainsi, sur la figure 4, le module 
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de base MB 0 est associ6 aux modules 3D Mq k et le modfele de base MB X est 
associ6 aux modules 3D M k , M^ +l et suivants. 

On choisit d'associer un tel modfele grossier MB k aux modeles 3D de 
r ensemble des GOPs le long desquels on peut suivre un ensemble de points 
5 particuliers pr6d6termin6s. Lorsque certains de ces points ne sont plus apparents 
dans le module 3D suivant, on choisit de passer k un nouveau modele de base 
MB k+l . 

On peut ainsi decomposer en ondelettes les differents modules 3D M k , qui 
ont 6t6 obtenus separ^ment, mais qui s'appuient tous sur un meme maillage de 
10 base, k savoir celui du module grossier commun associe. 

Suivant la nature des images de la sequence originate, et r existence de 
zones communes entre celles-ci en plus ou moins grand nombre, le maillage de 
base MB k pourra etre valide pour un nombre variable de GOPs, voire mSme 
6ventuellement pour toute la sequence d'images. 
15 GrSce a ces modules de base MB k , on peut done exprimer chaque modele 

3D M k estime, par le maillage de base lui correspondant d'une part, et par un 
ensemble de coefficients d ! ondelettes d' autre part. 

Cette representation est r6sumee dans le schema de la figure 6, oil les 
coefficients repr6sentent les coefficients d'ondelettes relatifs k une 
20 transformation de passage d'un module 3D M,, au suivant et oil les coefficients r* 
repr6sentent les coefficients d'ondelettes relatifs a un raffinement entre un module 
de base MB k et un modele 3D M k associS. 

Ainsi, les coefficients d'ondelettes t^ 1 k t n kM1 sont utilis6s pour passer 
d'un modfele 3D M k au modele 3D M^. Les coefficients d'ondelettes r 0 k k r n k 
25 illustrent quant k eux le passage d'un modfele 3D M k au module de base assocte 
(en l'esp&ce, le module MB t ). 

Le premier ensemble de coefficients d'ondelettes t f definit done les liens 
entre les differents modules M k , ce qui permet de passer de Tun k l'autre, et de 
g6n6rer des modules intermediates, soit par une interpolation lin6aire entre les 
30 correspondants, soit de maniere implicite gr&ce aux ondelettes. 
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Le deuxi&me jeu d'ondelettes r* assure une transmission progressive et 
efficace (en terme de d6bit) des diff6rents modules. Ainsi, la technique de 
Finvention peut etre adapt6e k tous types de terminaux, quelle que soit leur 
capacite de traitement, et k tous types de r6seaux de transmission, quel que soit 
5 leur d6bit. 

On presente d6sormais, en relation avec la figure 7, les differentes etapes 
rnises en oeuvre selon F invention, lors du codage des modeles et des textures 
associees, pour la representation d'une sequence d'images originale. 

En entr6e de l'algorithme, on a un ensemble damages naturelles I n k I m , 
10 correspondant k differentes prises de vue d'une scene ou d'un objet du monde 
reel, comme illustre precedemment en relation avec la figure 4. Dans un mode de 
realisation pref6re de 1' invention, ces images sont au format ppm et au format 
pgm. L'invention s'applique bien sur egalement k tout autre format d'image. 

On procede tout d'abord k une estimation de mouvement 71 entre les 
15 differentes images de la sequence originale, de fa§on k determiner le champ de 
mouvement C^+p entre les images I n et I n+p , ainsi que 1' ensemble des points 
supports de Festimation de Finformation 3D, a savoir Fensemble e n#w+p des 
sommets du maillage utilise pour Testimation de mouvement entre les images I n et 
I n+p9 ayant les plus hauts scores avec le detecteur de Harris et Stephen et decim6s 
20 regulifcrement. 

On selectionne ensuite (72) les images clefs K k de la sequence originale, 
qui ddlimitent les differents GOPs de la sequence. 

Si la s6quence originale est une sequence vid6o, la selection 72 des images 
clefs K k d^limitant les GOPs est r6alisee selon Talgorithme developpe par Franck 
25 Galpin et al. dans "Sliding Adjustment for 3D Video Representation" EURASIP 
Journal on Applied Signal Processing 2002 :10 (voir notamment le paragraphe 
5.1. Selection Criteria). Cette selection 72 des images de debut et de fin de GOP 
repose done sur la validation de trois criferes: 

un mouvement moyen suffisant pour la reconstruction de l'inf ormation 
30 3D ; 
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- un pourcentage de points communs relativement 61ev6 entre les deux 
images extremes du GOP ; 

- la validity de la g6om6trie estimee (6valu6e grace au r6sidu 6pipolaire). 
La premiere image clef s61ectionnee est quant k elle la premifere image. Iq 

5 de la sequence originale. 

Pour Textraction des modules 3D M k , c'est-k-dire pour Testimation de la 
matrice fondamentale et pour l'estimation des matrices de projection et des 
positions de camera 73, on exploite 6galement les techniques d6velopp6es par 
Franck Galpin dans "Representation 3D de sequences vid6o: Schema d'extraction 
10 automatique d'un flux de modules 3D, applications a la compression et a la r6alite 
virtuelle," University de Rennes 1, 2002 et dans "Sliding Adjustment for 3D 
Video Representation" EURASIP Journal on Applied Signal Processing 2002 :10. 
Ces techniques reposent sur les algorithmes classiques de la mod61isation 3D. 

Dans le cas, non pas d'une sequence vid6o, mais d'un ensemble damages, 
15 le principe est le meme pour Textraction de reformation 3D. En revanche, le 
support de cette estimation est un ensemble de points particuliers de l'image 
courante, ayant un fort score pour le d6tecteur de Harris et Stephen (dans "A 
Combined Corner and Edge Detector," en frangais "un detecteur combing de 
sommets et d'arStes", Proc. 4th Alvey Vision Conf., 1988), dont on cherche les 
20 correspondants dans l'image suivante par « block matching » (ou estimation de 
mouvement par blocs). On limite en outre le nombre de modeles a transmettre, en 
mettant en oeuvre une selection 72 des images & prendre en compte pour la 
reconstruction de la sequence originale. Cette s61ection 72 est basde sur les mSmes 
criteres que la selection des images clefs dans le cas d'une video. 
25 Apres selection 72 des images clefs K* du GOP k, on determine done le 

champ de mouvement C k associe au GOP k comme etant le champ de mouvement 
entre les deux images de d6but et de fin de GOP k. 

On procfede 6galement & une calibration 75, permettant de determiner 
l'ensemble des param&tres intrinsfeques et extrinsfeques de la camera ayant servi & 
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T acquisition de la sequence d' images, et notamment la position P k de la camera 
associSe k 1'image I k . 

Connaissant cette position P k d'une part, et le champ de mouvement C k 
associ6 au GOP k d' autre part, on estime (74) la carte de profondeur assoctee 
5 auGOPk. 

On sauvegarde 6galement (76) Tensemble des images clefs K k de la 
sequence originale associ6es aux GOPs k. 

On pourra se r£f6rer aux deux publications de Franck Galpin cit6es 
prec6demment pour le mode de fonctionnement plus particulier des blocs 
10 ref6renc6s 7 1 k 76 sur la figure 7. 

En vue de la reconstruction, on realise un maillage irr6gulier 
bidimensionnel 77 des cartes de profondeur Z^, sous la contrainte de la prise en 
compte des correspondants des sommets du modele associS au GOP pr6c6dent, 
contenus dans Timage K k . 
15 Ce maillage 2D peut etre calcul6 de deux manieres: 

- par des simplifications successives h partir d ! un maillage regulier de 
triangles de cot6 1 (i.e. tous les points de 1'image) ; 

- par un maillage de Delaunay de points d'interSt d6tectes au pr6alable. 
Lorsque le maillage a 6te determine au niveau n, on estime (78), & l'aide du 

20 champ de mouvement C n , les correspondants de ces points dans la derniere image 
du GOP n (qui est aussi, dans un mode de realisation pr6fere de l'invention, la 
premiere image du GOP n+1). Cette liste de sommets correspondants est alors 
stock6e (78) et utilis6e lors du maillage 77 du mod&le associ6 au GOP n+1. 

Dans le cas du maillage 2D obtenu par simplification, on contraint que les 
25 points de cette liste 78 soient pr6sents dans le maillage final. 

Dans le cas du maillage de Delaunay, les sommets du maillage assocte au 
GOP n+1 obtenu par une triangulation de Delaunay sont: 

- les points particuliers d6tect6s par Talgorithme de Harris et Stephen 
("A Combined Corner and Edge Detector," Proc. 4th Alvey Vision 



WO 2004/114669 



22 



PCT/FR2004/001542 



Conf., 1988), ou tout autre detecteur de points d'int&et adequat, sur 
l'image clef du GOP n+i, 
- les correspondants des sommets du maillage associ6 au GOP n. 
La liste des correspondants C(E n ) calculus au niveau n permet de prendre 
5 en compte les sommets du module du GOP n qui ne feraient pas partie des 
sommets detects par Harris sur Timage cl6 du GOP n+i. 

Ainsi, on est assure de la presence des correspondants des sommets d ! un 
module dans le modele suivant, ce qui facilite amplement le lien 79 entre ces deux 
modules. En effet, les correspondances 79 entre les modules pourront Stre 
10 obtenues de maniere precise grace au champ de mouvement. 

Dans une variante de realisation de F invention, pour obtenir une 
transformation 79 encore plus pr6cise, on rend cette etude bidirectionnelle, en 
contraignant le maillage du module courant h la prise en compte des 
correspondants, non seulement des sommets du modele precedent, mais 
15 egalement des sommets du module suivant. 

Les maillages 3D Mfc, correspondant a la geom6trie des modeles 3D 
repr6sentant les GOPs, sont obtenus par €16vation des maillages 2D estimes, ainsi 
qu'illustr6 par le bloc reference 80. 

Les correspondances 78 etablies entre les sommets de deux modeles 
20 successifs permettent d'exprimer la transformation 79, permettant de passer d ! un 
modele M k h un modfele M k+l , k Taide de coefficients d'ondelettes. 

L'int&ret d'exprimer cette transformation k Taide d'ondelettes est que Ton 
peut adapter la precision de la transformation au debit grSce & la scalabilite 
naturelle des ondelettes. 
25 Les ondelettes utilisees pour la decomposition sont des ondelettes de 

deuxieme g6n6ration, c*est-&-dire qu'elles sont definissables sur des ensembles 
qui n'ont pas de structure d'espace vectoriel. En Tespfece, avec les notations de la 
Figure 6, les ondelettes sont definies sur les modeles de base MB 0 , MB t , etc. 

Disposant du maillage de base MB t et de la correspondance g6ometrique 
30 entre MBj et le mod&e 3D M„ la g6n6ration des coefficients d'ondelettes se fait 
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par application de filtres d' analyse sur un remaillage semi-r6gulier de Mj. Les 
coefficients d'ondelettes d sont la solution du systfeme linSaire suivant : 

Td = c 

oil T est la matrice de synthese globale et oil c est 1'ensemble des positions des 
5 sommets sur le remaillage semi-r6gulier de Mj. 

T depend du type d'ondelettes utilises. Trois sch6mas sont privileges 
selon Tinvention : les ondelettes affines par morceaux, les ondelettes 
polynomials (notamment les ondelettes de Loop), et les ondelettes bashes sur le 
sch6ma de subdivision de Butterfly (J. Warren et al., "Multiresolution Analysis 
10 for Surfaces of Arbitrary Topological Type," ACM Transactions on Graphics, vol. 
16, pp. 34-73, 1997). 

Ainsi, la matrice T est de la forme 

T = (PQ) 

oil P est une sous-matrice qui represente uniquement le schema de subdivision 
15 (Affine, Loop, Butterfly,...) et oft la sous-matrice Q est 1' interpretation 

g6ometrique des coefficients d'ondelettes. 

Dans un mode de realisation px6f€r6 de Tinvention, Q est choisie de telle 

sorte que les coefficients d'ondelettes aient un moment nul. Dans le cas g£n£ral, P 

et Q peuvent Stre arbitrages dans la mesure oh T teste inversible. 
20 La figure 7 resume l'approche qui vient d'etre exposSe pour le GOP k. 

Les notations utilises sur cette figure sont les suivantes: 

- I n ..J M sont les images d'entr£e ; 

- C^+p est le champ de mouvement entre les images /„ et I n+p , ; 
C k est le champ de mouvement assocte au GOP k ; 

25 - C(V) est 1'ensemble des correspondants des points de Tensemble V 

trouv6s par le champ de mouvement ; 

- e m est Tensemble des points supports de l'estimation de Tinformation 
3D (sommets du maillage utilis6 pour Testimation de mouvement ayant 
les plus hauts scores avec le d^tecteur de Harris et Stephen et d6cim6s 

30 r6guli£rement) ; 
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- E k est Fensemble des sommets du modfele 3D associ6 au GOP k ; 

- Z k est la carte de profondeur associ6e au GOP k ; 

- K k est Timage de la sequence originale correspondant k l'image clef 
assoctee au GOP k ; 

5 Afjt est le modfele 3D associe au GOP k ; 

- P m est la position de camera associSe k Timage I m ; 

0 k est l'ensemble des coefficients d'ondelettes d6finissant la 
transformation de passage entire M k et M M , ; 

V k est l'ensemble des sommets du maillage correspondant au module 
10 M k .. 

Le codeur 81 re?oit en entree les positions P k de la camera pour les 
differentes images I k de la sequence originale, Festimation M k du module 3D 
textur6, et les coefficients d'ondelettes permettant de transformer le modfele M k-l 
en module M k . 

15 Simultan6ment k Testimation des modules 3D M k de chacun des GOPs k, 

illustree en figure 7, on reconstruit des modeles de base MB t valides pour 
plusieurs GOPs successifs. 

On suit pour cela, grSce au champ de mouvement calcule C k , l'ensemble de 
points particuliers d6tect6s dans la premiere image du GOP k le long de plusieurs 

20 images de la sequence. Plus pr6cis6ment, on detecte la presence des 
correspondants de ces points le long de plusieurs GOPs successifs, jusqu'& ce que 
le nombre de correspondants inclus dans Timage analysde soit inf£rieur k un seuil 
pr6d6termin6. Ce seuil doit etre choisi de fagon k assurer la possibilite de la 
reconstruction (i.e. de Testimation de la matrice fondamentale) ; on le choisit par 

25 exemple 6gal k 7. Lorsque le nombre de points particuliers d6tectes dans un GOP 
est inf6rieur au seuil, on en dSduit que ce GOP ne doit pas §tre associ6 au meme 
module de base MBj que les GOPs pr€c6dents. 

A partir de ce sous-ensemble de points particuliers, que Ton a suivis de 
GOP en GOP, on reconstruit un module de base MB t dont les sommets sont tous 
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presents dans les modules M k associes aux GOPs k le long desquels on a pu suivre 
ces points. 

Ces modules de base, ou modules grossiers MBj sont ensuite 
individuellement d6compos€s en ondelettes. Pour ce faire, on met en oeuvre la 

5 methode d6crite par P. Gioia, dans "Reducing the number of wavelet coefficients 
by geometric partitioning," Computational geometry, Theory and applications, 
vol. 14, 1999, en s'appuyant sur le meme maillage de base. Chaque modele 3D M k 
est consider^ comme un raffinement du module de base grossier MBi. 

Ainsi, les coefficients de la figure 6 sont obtenus de la manifere 

10 suivante : les maillages de base issus d'un mSme GOP sont identiques, et gen&rent 
aprfes subdivision, le meme maillage serni-r6gulier. Par cons6quent, les 
coefficients r, k sont indexes par les memes sommets g6om6triques lorsque k varie 
dans un mSme GOP. Pour chaque k intermediate, on peut done d6finir une 
fonction f* qui fait correspondre h. chacun de ces sommets la difference entre les 

15 coefficients et r**\ Cette fonction J* est alors d6composee, comme 
precedemment, en coefficients d'ondelettes, qui sont les coefficients tf. 

L'invention permet done de transmettre la g6om6trie des modules associes 
k la sequence originale de mani&re peu coflteuse, puisqu'on transmet, d'une part, 
les maillages de base et d' autre part, les coefficients d'ondelettes associ6s aux 

20 diff&rents modules. 

Les applications envisageables dans le cadre de l'invention sont 
nombreuses. L'invention s'applique ainsi tout particulierement au codage 
damages repr6sentant une mSme sc&ne fixe (qui peuvent Stre un ensemble 
d'images ind6pendantes ou une video). Les taux de compression atteints par ce 

25 type de representation se situent dans les bas et txbs bas d6bits (typiquement de 
Pordre de 20 kbits/s) et on peut done envisager des applications portables. 

De plus, la sequence virtuelle obtenue par reprojection (au d6codage) 
poss&de toute les fonctionnalit6s permises par la 3D, telles que le changement 
d'illumination, la stabilisation de la sequence, la navigation libre, Fajouts d'objet... 
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REVENDICATIONS 

1. Procede de representation d'une sequence d'images regroup6es en 
ensembles d'au moins deux images successives, appeies GOPs, un module 
tridimensionnel maille texture etant associe k chacun desdits GOPs, 
5 caracterise en ce que le module tridimensionnel associe au GOP de niveau n est 
represents k Faide d'un maillage irregulier tenant compte d'au moins un 
sommet d'au moins le maillage irregulier repr6sentant le modele 
tridimensionnel associe au GOP de niveau n-1, ledit sommet etant appeie 
sommet commun. 

10 2. Procede de representation selon la revendication 1, caracterise en ce 
qu'on associe egalement k au moins deux modeles tridimensionnels cons6cutifs 
un module de base construit k partir desdits sommets communs auxdits au 
moins deux modules tridimensionnels. 

3. Precede de representation selon Tune quelconque des revendications 1 
15 et 2, caracterise en ce qu'on passe d'un desdits modules tridimensionnels k un 

autre par transformation en ondelettes, k Faide d'un premier ensemble de 
coefficients d' ondelettes. 

4. Procede de representation selon Tune quelconque des revendications 1 
k 3, caracterise en ce qu'un desdits modeles tridimensionnels est obtenu k partir 

20 dudit module de base associe par transformation en ondelettes, k Faide d'un 
deuxfeme ensemble de coefficients d'ondelettes. 

5. Procede de representation selon Tune quelconque des revendications 1 
k 4, caracterise en ce que ledit maillage irregulier de niveau n est un maillage 
irregulier bidimensionnel de Fune des images dudit GOP de niveau n. 

25 6. Procede de representation selon la revendication 5, caracterise en ce 
que ladite image mailiee est la premiere image dudit GOP de niveau n. 
7. Procede de representation selon Tune quelconque des revendications 1 
k 6, caracterise en ce que chacun desdits modules tridimensionnels est obtenu 
par elevation dudit maillage irregulier le representant. 
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8. Procede de representation selon Tune quelconque des revendications 5 
k 7, caracterise en ce que ledit maillage bidimensionnel irregulier est obtenu 
par simplifications successives d'un maillage triangulaire r6gulier de ladite 
image. 

5 9. Procede de representation selon Tune quelconque des revendications 5 
k 7, caracterise en ce que ledit maillage bidimensionnel irregulier est obtenu k 
partir d'un maillage de Delaunay de points d'interet predetermines de ladite 
image. 

10. Procede de representation selon Tune quelconque des revendications 1 
10 k 9, caracterise en ce que deux GOPs successifs ont au moins une image 

commune. 

11. Procede de representation selon Tune quelconque des revendications 1 
k 10, caracterise en ce que lesdits sommets communs auxdits niveaux n-1 et n 
sont detectes par estimation de mouvement entre la premiere image dudit GOP 

15 de niveau n- 1 et la premiere image dudit GOP de niveau n. 

12. Procede de representation selon la revendication 11, caracterise en ce 
qu'il comprend une etape de stockage desdits sommets communs detectes. 

13. Procede de representation selon Tune quelconque des revendications 1 
k 12, caracterise en ce que ledit maillage irregulier representant ledit module 

20 associe au GOP de niveau n tient egalement compte d'au moins un sommet 
d'au moins le maillage irregulier repr6sentant le module associe au GOP de 
niveau n+1. 

14. Procede de representation selon Tune quelconque des revendications 4 
k 13, caracterise en ce que ledit deuxieme ensemble de coefficients 

25 d' ondelettes est g6n6i6 par application d'au moins un filtre d'analyse sur un 
remaillage semi-regulier dudit module tridimensional associe. 

15. Procede de representation selon Tune quelconque des revendications 3 
k 14, caracterise en ce que lesdites ondelettes sont des ondelettes de deuxi&me 
generation. 
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16. Proc6d6 de representation selon Tune quelconque des revendications 3 
k 15, caract6ris6 en ce que lesdites ondelettes appartiennent au groupe 
comprenant : 

les ondelettes affines par morceaux ; 
5 - les ondelettes polynomials ; 

les ondelettes bashes sur le schema de subdivision de Butterfly. 

17. Signal repr6sentatif d'une sequence d'images regroup€es en 
ensembles d'au moins deux images successives, appelds GOPs, un module 
tridimensionnel mailie texture etant associe a chacun desdits GOPs, 

10 caract6ris6 en ce qu'il comprend : 

au moins un champ contenant un modele de base construit h. partir de 
sommets communs h au moins deux maillages irr6guliers, repr6sentant 
chacun un module tridimensionnel, lesdits au moins deux modules 
tridimensioimels etant associes h au moins deux GOPs successifs ; 

15 - au moins un champ contenant un ensemble de coefficients d'ondelettes 
permettant de construire, par transformation en ondelettes a partir dudit 
modele de base, au moins un module tridimensionnel associe k Tun desdits 
GOPs ; 

au moins un champ contenant au moins une texture associee k Tun desdits 
20 modules tridimensioimels ; 

au moins un champ contenant au moins un paramfetre de position de 
camera. 

18. Dispositif de representation d'une sequence d'images mettant en 
oeuvre le proc6d6 de representation de l'une quelconque des revendications 1 k 

25 16. 

19. Dispositif de representation d'une sequence d'images regroupees en 
ensembles d'au moins deux images successives, appeies GOPs, un modele 
tridimensionnel mailie texture etant associe & chacun desdits GOPs, 
caracterise en ce qu'il comprend : 



WO 2004/114669 



29 



PCT/FR2004/001542 



des moyens de construction desdits modules tridimensionnels, par 
transformation en ondelettes d'au moins un module de base, 61abor6 k 
partir de sommets communs k au moins deux maillages irreguliers 
repr6sentant deux modules tridimensionnels successif s ; 
5 - des moyens de representation desdites images de la sequence k partir 
desdits modeles tridimensioimels, d'au moins une image de texture et d'au 
moins un paramfetre de position de camera. 
20. Dispositif de codage d'une sequence d'images regroupees en 
ensembles d'au moins deux images successives, appel6s GOPs, un modele 
10 tridimensional maill6 textur6 6tant associ6 k chacun desdits GOPs, 

caract6ris6 en ce qu'il comprend des moyens de codage d'un module 
tridimensionnel associ6 au GOP de niveau n, ledit module tridimensionnel 
<Stant repr6sente a l'aide d'un maillage irr6gulier tenant compte d'au moins un 
sommet d'au moins le maillage irregulier repr6sentant le modele 
15 tridimensionnel assocte au GOP de niveau n-1. 
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